通过FPGA加速神经网络推断作为一种流行的选择,因为FPGA的重新配置性和高性能计算能力本质上满足了快速发展神经算法的计算需求。然而,FPGA(例如,Xilinx DPU)上的受欢迎的神经加速器主要利用DSP资源来构建其处理单元,而丰富的LUT资源没有充分利用。通过软件 - 硬件共同设计方法,在这项工作中,我们开发了一种基于FPGA的异构计算系统,用于神经网络加速度。从硬件角度来看,所提出的加速器由基于DSP和LUT的一般矩阵乘法(GEMM)计算核心组成,其以异质方式形成整个计算系统。基于DSP和LUT的GEMM核心计算为W.R.T统一指令集架构(ISA)和Unified Buffers。沿着神经网络推理路径的数据流,卷积/完全连接层的计算分为两部分,由基于DSP和LUT的GEMM核心异步处理。从软件的角度来看,我们在数学上和系统地模拟所提出的异构加速器的延迟和资源利用,关于不同的系统设计配置。通过利用加强学习技术,我们构建一个框架,实现目标异构加速器的设计规范的端到端选择和优化,包括工作量分裂策略,混合精度量化方案和DSP和LUT的资源分配 - 核。凭借提出的设计框架和异构计算系统,我们的设计优于最先进的混合和匹配设计,延迟减少了1.12-1.32倍,推理准确性更高。 N3H核心是开放的:https://github.com/elliothe/n3h_core。
translated by 谷歌翻译
Entities, as important carriers of real-world knowledge, play a key role in many NLP tasks. We focus on incorporating entity knowledge into an encoder-decoder framework for informative text generation. Existing approaches tried to index, retrieve, and read external documents as evidence, but they suffered from a large computational overhead. In this work, we propose an encoder-decoder framework with an entity memory, namely EDMem. The entity knowledge is stored in the memory as latent representations, and the memory is pre-trained on Wikipedia along with encoder-decoder parameters. To precisely generate entity names, we design three decoding methods to constrain entity generation by linking entities in the memory. EDMem is a unified framework that can be used on various entity-intensive question answering and generation tasks. Extensive experimental results show that EDMem outperforms both memory-based auto-encoder models and non-memory encoder-decoder models.
translated by 谷歌翻译
从传统上讲,地球系统(例如天气和气候)的预测依赖于具有复杂物理模型的数值模拟,因此在计算中既昂贵又对领域专业知识的需求既昂贵。在过去十年中时空地球观察数据的爆炸性增长中,应用深度学习(DL)的数据驱动模型表明了各种地球系统预测任务的潜力。尽管在其他领域取得了广泛的成功,但作为新兴DL架构的变压器在该领域的采用量有限。在本文中,我们提出了Earthformer,这是一种用于地球系统预测的时空变压器。 Earthformer基于一个通用,灵活和有效的时空注意块,名为Cuboid的注意力。这个想法是将数据分解为立方体,并平行应用立方体级别的自我注意力。这些立方体与全球矢量的集合进一步相关。我们对MovingMnist数据集和新提出的混沌N体MNIST数据集进行了实验,以验证Cuboid注意的有效性,并找出地球形式的最佳设计。关于降水现象和El Nino/Southern振荡(ENSO)预测的两个现实基准测试的实验表明,Earthformer实现了最新的性能。
translated by 谷歌翻译
经典的机器学习范式需要在中心位置汇总用户数据,在该位置,机器学习实践者可以预处理数据,计算功能,调整模型并评估性能。这种方法的优点包括利用高性能硬件(例如GPU)以及机器学习实践者在深度数据分析中进行的能力以提高模型性能。但是,这些优势可能是为了支付数据隐私的费用。收集,汇总并存储在集中式服务器上以进行模型开发。数据集中构成风险,包括内部和外部安全事件的风险增加以及意外数据滥用。具有不同隐私的联合学习旨在通过将ML学习步骤带给用户的设备来避免服务器端集中化陷阱。学习是以联合方式完成的,每个移动设备都在模型的本地副本上运行一个训练循环。来自设备模型的更新通过加密通信和通过差异隐私发送到服务器,以改善全局模型。在此范式中,用户的个人数据仍在其设备上。令人惊讶的是,以这种方式培训模型培训的模型性能差异很小。但是,由于其分布式性质,异质计算环境和缺乏数据可见性,联邦学习带来了许多其他挑战。本文探讨了这些挑战,并概述了我们正在探索和测试的建筑设计解决方案,以在元评估中生产联合学习。
translated by 谷歌翻译
学习高质量的对话表示对于解决各种面向对话的任务至关重要,尤其是考虑到对话系统通常会遇到数据稀缺。在本文中,我们介绍了对话句子嵌入(DSE),这是一种自我监督的对比学习方法,它学习有效的对话表示,适合各种对话任务。 DSE通过连续进行与对比度学习的正面对话的连续对话来从对话中学习。尽管它很简单,但DSE的表现能力比其他对话表示和普遍的句子表示模型要好得多。我们评估DSE的五个下游对话任务,这些任务检查了不同语义粒度的对话表示。几次射击和零射击设置的实验表明,DSE的表现要优于基线。例如,它在6个数据集中的1-Shot意图分类中比最强的无监督基线实现了13%的平均绩效提高。我们还提供了有关模型的好处和局限性的分析。
translated by 谷歌翻译
自我监督的学习在表示视觉和文本数据的表示方面取得了巨大的成功。但是,当前的方法主要在经过良好策划的数据集中验证,这些数据集未显示现实世界的长尾分布。在损失的角度或模型观点中,重新平衡的重新平衡是为了考虑自我监督的长尾学习的最新尝试,类似于被监督的长尾学习中的范式。然而,没有标签的帮助,由于尾巴样品发现或启发式结构设计的限制,这些探索并未显示出预期的明显希望。与以前的作品不同,我们从替代角度(即数据角度)探索了这个方向,并提出了一种新颖的增强对比度学习(BCL)方法。具体而言,BCL利用深神经网络的记忆效果自动推动对比度学习中样本视图的信息差异,这更有效地增强了标签 - unaware环境中的长尾学习。对一系列基准数据集进行的广泛实验证明了BCL对几种最新方法的有效性。我们的代码可在https://github.com/mediabrain-sjtu/bcl上找到。
translated by 谷歌翻译
这项工作考虑了最佳手臂识别的选择性采样问题。给定一组潜在选项$ \ mathcal {z} \ subset \ mathbb {r} ^ d $,学习者旨在计算概率大于1- \ delta $,$ \ arg \ max_ {z \ mathcal { z}} z ^ {\ top} \ theta _ {\ ast} $ where $ \ theta _ {\ art} $未知。在每个时间步骤中,潜在的测量$ x_t \ in \ mathcal {x} \ subset \ mathbb {r} ^ d $被绘制的iid,学习者可以选择采取测量,在这种情况下,他们观察到嘈杂的测量$ x ^ {\ top} \ theta _ {\ ast} $,或弃权采取测量并等待可能更多的信息点到达流。因此,学习者在他们采取的标签样本数量之间面临的基本折衷,并且当他们收集足够的证据来宣布最好的手臂并停止抽样时。这项工作的主要结果精确地表征了标记的样本和停止时间之间的这种权衡,并提供了一种算法,几乎最佳地实现了给出所需停止时间的最小标签复杂性。此外,我们表明最佳决策规则具有基于决定点是否处于椭圆形的简单几何形式。最后,我们的框架足以捕获先前作品的二进制分类。
translated by 谷歌翻译
图形神经网络(GNNS)在各种基于图形的应用中显示了优势。大多数现有的GNNS假设图形结构的强大奇妙并应用邻居的置换不变本地聚合以学习每个节点的表示。然而,它们未能概括到异质图,其中大多数相邻节点具有不同的标签或特征,并且相关节点远处。最近的几项研究通过组合中央节点的隐藏表示(即,基于多跳的方法)的多个跳数来解决这个问题,或者基于注意力分数对相邻节点进行排序(即,基于排名的方法)来解决这个问题。结果,这些方法具有一些明显的限制。一方面,基于多跳的方法没有明确区分相关节点的大量多跳社区,导致严重的过平滑问题。另一方面,基于排名的模型不与结束任务进行联合优化节点排名,并导致次优溶液。在这项工作中,我们呈现图表指针神经网络(GPNN)来解决上述挑战。我们利用指针网络从大量的多跳邻域选择最相关的节点,这根据与中央节点的关系来构造有序序列。然后应用1D卷积以从节点序列中提取高级功能。 GPNN中的基于指针网络的Ranker是以端到端的方式与其他部件进行联合优化的。在具有异质图的六个公共节点分类数据集上进行了广泛的实验。结果表明,GPNN显着提高了最先进方法的分类性能。此外,分析还揭示了拟议的GPNN在过滤出无关邻居并减少过平滑的特权。
translated by 谷歌翻译
图表卷积网络(GCNS)已成为图形学习的最先进的深度学习模型。然而,在大型图形数据集中训练和推理GCN仍然令人惊奇地挑战,将其应用于大型真实图表并阻碍更深层和更复杂的GCN图形的探索。这是因为随着图形尺寸的增长,节点特征的纯粹数量和大邻接矩阵可以很容易地爆炸所需的内存和数据移动。为了解决上述挑战,我们探讨了在缩小GCN图表时绘制彩票票证的可能性,即,基本上缩小邻接矩阵的子图能够实现与完整图表相当的准确性。具体而言,我们首次发现在稀释GCN图的早期阶段的图表早期(GEB)票的存在,并提出了一种简单但有效的探测器,以自动识别这种GEB门票的出现。此外,我们倡导图形模型共同优化,开发了一个通用的GCN早期鸟类训练框架,称为GCN培训的效率(1)在GCN图形和模型之间绘制联合早期鸟类,( 2)启用GCN图形和模型的同时稀疏。关于各种GCN模型和数据集的实验一致地验证了我们的GEB寻找和GEBET的有效性,例如,我们的GEBT实现高达80.2%〜85.6%和84.6%〜87.5%的GCN培训和推理成本,同时提供了可比甚至与最先进的方法相比,更好的准确性。我们的源代码和补充附录可用于https://github.com/rice-eic/early-bird-gcn。
translated by 谷歌翻译
我们在加固学习中使用汤普森采样(TS) - 样算法中的随机价值函数研究探索。这种类型的算法享有有吸引力的经验性能。我们展示当我们使用1)每一集中的单个随机种子,而2)伯尼斯坦型噪声幅度,我们获得了最坏的情况$ \ widetilde {o}左(h \ sqrt {sat} \右)$遗憾绑定了焦点时间 - 不均匀的马尔可夫决策过程,其中$ S $是国家空间的大小,$ a $的是行动空间的大小,$ h $是规划地平线,$ t $是互动的数量。这种绑定的多项式基于随机值函数的TS样算法的所有现有界限,并且首次匹配$ \ Omega \左(H \ SQRT {SAT}右)$下限到对数因子。我们的结果强调随机勘探可以近乎最佳,这是以前仅通过乐观算法实现的。为了实现所需的结果,我们开发1)新的剪辑操作,以确保持续持续的概率和悲观的概率是较低的常数,并且2)用于分析估计误差的绝对值的新递归公式。后悔。
translated by 谷歌翻译